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(57) Abstract 



A source signal (e.g. a voice test) is processed by a voice 
coder (1) or transmitted and converted into a receive signal (coded 
voice signal). The source and receive signals are separately subjected 
to preprocessing (2) and to psycho-acoustic modeling (3), followed 
by interval calculation (4) to evaluate the similarity of the signals. 
Finally, MOS calculation is carried out to obtain a result that can 
be compared with human evaluation. According to the invention, 
a spectral similarity value is determined for evaluating transmission 
quality, which is based on calculating the covariance of the spectra 
source and receive signals and dividing the covariance by the standard 
deviation of the above-mentioned spectra. The inventive method 
enables objective evaluation (voice quality forecast) while taking into 
account the human hearing process. 

(57) Zusammenfassung 

Ein Quellsignal (z.B. eine Sprachprobe) wird durch einen 
Sprachcodierer (1) verarbeitet bzw. Ubertragen und in ein Emp- 
fangssignal (codiertes Sprachsignal) uberfuhrt. Quell- und Emp- 
fangssignal werden separat einer Vorverarbeitung (2) und einer psy- 
choakustischen Modellierung (3) unterworfen. Es folgt eine Ab- 
standsberechnung (4), welche die Ahnlichkeit der Signale beurteilt. 
Schliesslich wird eine MOS-Berechnung durchgefuhrt, urn ein mit der menschlichen Bewertung vergleichbares Resultat zu erhalten. GemSss 
der Erfindung wird zur Beurteilung der Ubertragungsqualitat ein spektraler Ahnlichkeitswert bestimmt, welcher auf einer Berechnung der 
Kovarianz der Spektren von Quellsignal und Empfangssignal und einer Division der Kovarianz durch die Standardabweichungen der beiden 
genannten Spektren beruht. Das Verfahren ermdglicht unter Beriicksichtigung des menschlichen Hdrvorgangs eine objektive Beurteilung 
(Sprachqualitats-Vorhersage). 
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Verfahren zur Durchfiihrung einer maschinengestutzten Beurteilung der Obertra- 

gungsqualitat von Audiosignalen 



Technisches Gebiet 

5 Die Erfindung betrifft ein Verfahren zur Durchfiihrung einer maschinengestutzten Beurtei- 
lung der Obertragungsqualitat von Audiosignalen, insbesondere von Sprachsignalen, wobei 
in einen Frequenzbereich Spektren eines zu ubertragenden Quellsignals und eines ubertra- 
genen Empfangssignals bestimmt werden. 
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Stand der Technik 



Die Beurteiiung der Obertragungsqualitat von Sprachkanalen gewinnt mit der wachsenden 
Verbreitung und geografischen Ausdehnung der Mobilfunktelefonie zunehmend an Bedeu- 
tung. Gesucht ist ein Verfahren, welches objektiv (d.h. nicht von der Einschatzung einer 
5 spezifischen Person abhangig) ist und automatisiert ablaufen kann. 

Die perfekte Obertragung von Sprache iiber einen Telekommunikationskanal im standardi- 
sierten Frequenzband 0.3 - 3.4 kHz ergibt eine Satzverstandlichkeit von ca. 98%. Die Ein- 
fiihrung der digitalen Mobilfunknetze mit Sprachcodierern in den Endgeraten kann aber die 
Verstandlichkeit der Sprache stark beeintrachtigen. Die Ermittlung des Masses der Beein- 
10 trachtigung bietet allerdings gewisse Schwierigkeiten. 

Sprachqualitat ist ein undeutlicher Begriff im Vergleich beispielsweise zur Bitrate, zum 
Echo oder zur Lautstarke. Da die Kundenzufriedenheit direkt mit der Giite der iibertrage- 
nen Sprache gemessen werden kann, mussen Codierverfahren beziiglich ihrer Sprachqua- 
litat ausgewahlt und optimiert werden. Zur Beurteiiung eines Sprachcodierverfahrens wer- 
den ublicherweise sehr aufwendige auditive Tests durchgefiihrt. Die Resultate sind dabei 
kaum reproduzierbar und hangen von der Motivation der Testhorer ab. Daher ist ein in- 
strumentelier Ersatz gesucht, der durch geeignete physikalische Messungen die Sprachgii- 
temerkmale misst, die mit subjektiv erhaltenen Ergebnissen (Mean Opinion Score, MOS) 
mdglichst gut korrelieren. 

20 Aus der EP 0 644 674 A2 ist ein Verfahren zum Beurteilen der Obertragungsqualitat einer 
Sprach-Ubertragungsstrecke bekannt, das auf automatischer Ebene eine Beurteiiung er- 
moglicht, die stark mit dem menschlichen Empfinden korreliert. D. h. das System kann 
eine Bewertung der Obertragungsqualitat durchfuhren und einen Massstab anlegen, wie er 
von einem geschulten Testhorer angewendet wiirde. Der Kerngedanke besteht in der 

25 Anwendung eines neuronalen Netzwerkes. Dieses wird mit einer Sprachprobe trainiert. Im 
Endeffekt findet eine integrale Qualitatsbeurteilung statt. Es wird nicht nach den Ursachen 
der Qualitatseinbusse gefragt. 
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Moderne Sprachcodierverfahren fiihren eine Datenkompression durch und benutzen sehr 
niedrige Bitraten. Deswegen versagen einfache bekannte objektive Verfahren, wie bei- 
spielsweise das Signal-Rauschverhaltnis (SNR). 

Darstellung der Erfindung 

5 Aufgabe der Erfindung ist es, ein Verfahren der eingangs genannten Art anzugeben, wel- 
ches unter Beriicksichtigung des menschlichen Horvorgangs eine objektive Beurteilung 
(Sprachqualitats-Vorhersage) ermoglicht. 

Die Losung der Aufgabe ist durch die Merkmale des Anspruchs 1 definiert. Gemass der 
Erfindung wird zur Beurteilung der Clbertragungsqualitat ein spektraler Ahnlichkeitswert - 
10 bestimmt, welcher auf einer Berechnung der Kovarianz der Spektren von Quellsignal und 
Empfangssignal und einer Division der Kovarianz durch die Standardabweichungen der 
beiden genannten Spektren beruht 

Tests mit einer Reihe von bewerteten Sprachproben und dem zugehorigen auditiven Urteil 
(MOS) haben gezeigt, dass auf der Basis des erfindungsgemassen Verfahrens eine sehr 
1 5 hohe Korrelation mit den auditiven Werten erzielt werden kann. im Vergleich mit der be- 
kannten auf einem neuronalen Netz basierenden Methode hat das vorliegende Verfahren 
folgende Vorteile: 

• Geringerer Bedarf an Speicher- und CPU-Mittel. Dies ist wichtig ftir eine Echtzeitim- 
plementierung. 

20 • Kein aufwendiges Systemtraining fur den Einsatz neuer Sprachproben. 

• Keine suboptimale systemimmanente Referenz. Die beste Sprachqualitat, die mit die- 
sem Mass gemessen werden kann, entspricht derjenigen der Sprachprobe. 

Vorzugsweise wird der spektrale Ahnlichkeitswert mit einem Faktor gewichtet, welcher in 
Abhangigkeit vom Verhaltnis der Energien der Spektren von Empfangs- zu Quellsignal den 
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Ahnlichkeitswert starker reduziert, wenn die Energie des Empfangssignals grosser ist als 
d.ejenige des Quel.signals als wenn die Energie des Empfangssignals kleiner ist als 
d.ejen.ge des Quellsignals. Auf diese Weise werden zusatzliche Signalinhalte im 
Empfangssignal starker negativ gewichtet als fehlende Signalinhalte. 

Gemass einer besonders bevorzugten Ausfiihrungsform ist der Gewichtungsfaktor auch 
abhangig von der Signalenergie des Empfangssignals. Fur jedes beliebige Verhaitnis der 
Energien der Spektren von Empfangs- zu Quellsignal gilt, dass der Ahnlichkeitswert umso 
starker reduziert wird, je hdher die Signalenergie des Empfangssignals ist. Dadurch wird 
der Einfiuss einer Stdrung im Empfangssignal auf den Ahnlichkeitswert abhangig von der 
Energie des Empfangssignals gesteuert. Dazu werden zumindest zwei Pegelfenster, eines 
unterhalb einer vorgegebenen Schwelle und eines oberhalb dieser Schwelle, definiert 
Vorzugsweise werden oberhalb der Schwelle mehrere, insbesondere drei, Pegelfenster 
definiert. Je nach Pegelfenster, in welchem das Empfangssignal liegt, wird der 
Ahnlichkeitswert reduziert. Je hoher der Pegel, desto starker die Reduktion. 

Grundsatzlich kann die Erfindung fur beliebige Audiosignale angewendet werden. Enthalten 
die Audiosignale inaktive Phasen (wie es bei Sprachsignalen typischerweise der Fall ist), 
empfiehlt es sich, die Qualitatsbeurteilung fur aktive und inaktive Phasen getrennt durch- 
zufuhren. Signalabschnitte, deren Energie die vorgegebene Schwelle iiberschreiten, wer- 
den der aktiven Phase zugeordnet, die ubrigen Abschnitte werden als Pausen (inaktive 
Phasen) eingestuft. Die weiter oben beschriebene spektrale Ahnlichkeit wird nur fur die 
aktiven Phasen berechnet. 

Fur die inaktiven Phasen (z.B. die Sprachpausen) kann eine Qualitatsfunktion angewendet 
werden, welche in Abhangigkeit von der Pausenenergie degressiv abnimmt: 



loglO(foflr) 



^logl0(£max) 



^^I7CH99/00269 
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A ist eine geeignete gewahlte Konstante, Emax ist der groBtmogliche Wert der Pausen- 
energie. 

Die Gesamtqualitat der Ubertragung (d.h. die eigentliche Clbertragungsqualitat) ergibt sich 
aus einer gewichteten Linearkombination der Qualitaten der aktiven und der inaktiven 
5 Phase. Die Gewichtungsfaktoren hangen dabei vom Anteil der aktiven Phase am Gesamt- 
signal ab, und zwar in einer nichMinearen, die aktive Phase bevorzugenden Weise. Bei 
einem Anteil von z.B. 50% kann die Qualitat der aktiven Phase in der Grossenordnung von 
z.B. 90% liegen. 

Pausen bzw. Storungen in den Pausen werden also separat und weniger stark als aktive 
Signalphasen beachtet. Dies tragt der Erkenntnis Rechnung, dass in Pausen im wesentli- 
chen keine Information ubertragen wird, dass es aber trotzdem als unangenehm empfun- 
den wird, wenn in den Pausen Storungen auftreten. 

Gemass einer besonders bevorzugten Ausfuhrungsform werden die zeitlichen Abtastwerte 
von Quell- und Empfangssignal in Datenrahmen zusammengefasst, welche einander urn 
einige Millisekunden bis zu einigen Dutzend Millisekunden iiberlappen (z.B. 16 ms). Diese 
Uberlappung bildet - zumindest teilweise - die dem menschlichen Horsystem inharente 
zeitliche Maskierung nach. 

Eine weitgehend realistische Nachbildung der zeitlichen Maskierung ergibt sich dann, 
wenn zusatzlich - nach der Transformation in den Frequenzbereich - zum Spektrum des 
20 aktuellen Rahmens das abgeschwachte Spektrum des vorhergehenden addiert wird. Die 
spektralen Komponenten werden dabei vorzugsweise unterschiedlich gewichtet. Nieder- 
frequente Komponenten des vorangegangenen Rahmens werden starker gewichtet als 
hoherfrequente. 

Es empfiehlt sich, vor der Durchfiihrung der zeitlichen Maskierung eine Kompression der 
25 Spektralkomponenten vorzunehmen, indem diese mit einem Wert a<1 (z.B. a=0.3) poten- 
ziert werden. Treten namlich in einem Frequenzband gleichzeitig mehrere Frequenzen auf, 
erfolgt beim auditiven System eine Oberreaktion, d.h. die Gesamtlautstarke wird als gros- 
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ser als diejenige der Summe der einzelnen Frequenzen empfunden. Im Endeffekt bedeutet 
dies eine Kompression der Komponenten. 

Eine weitere Massnahme, urn eine gute Korrelation zwischen den Beurteilungsergebnissen 
des erfindungsgemassen Verfahrens und der subjektiven menschlichen Wahrnehmung zu 
5 erreichen, besteht darin, das Spektrum eines Rahmens mit einer asymmetrischen "Ver- 
schmierungsfunktion" zu fallen. Diese mathematische Operation wird sowohl auf das 
Quell- als auch auf das Empfangssignal angewendet und zwar vor dem Bestimmen der 
Ahnlichkeit. 

Die Verschmierungsfunktion ist in einem Frequenz-Lautheits-Diagramm vorzugsweise eine 
1 0 Dreiecksfunktion, deren linke Flanke steiler als deren rechte ist. 

Vor der Faltung konnen die Spektren zusatzlich expandiert werden durch Potenzierung mit 
einem Wert e>1 (z.B. e=4/3). Damit wird die dem menschlichen Ohr charakteristische 
Lautheitsfunktion simuliert. 



15 



Aus der nachfolgenden Detailbeschreibung und der Gesamtheit der Patentanspruche er- 
geben sich weitere vorteilhafte Ausfiihrungsformen und Merkmalskombinationen der Er- 
findung. 



Kurze Beschreibung der Zeichnungen 

Die zur Erlauterung des Ausfuhrungsbeispiels verwendeten Zeichnungen zeigen: 

Hg- 1 ein grobes Blockschaltbild zur Erlauterung des Prinzips der Verarbeitung; 

20 Fig. 2 ein Blockschaltbild der einzelnen Verfahrensschritte zur Durchfuhrung der 

Qualitatsbeurteiiung; 



Rg.3 



ein Beispiel eines Hamming-Fensters; 
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Fig. 4 eine Darstellung der Gewichtungsfunktion zur Berechnung der Frequenz- 

Tonheit-Konvertierung; 

Fig. 5 eine Darstellung des Frequenzgangs des Telefonfilters; 

Fig. 6 eine Darstellung der Kurven gleicher Lautstarke fiir das ebene Schallfeld 

5 (Ln ist die Lautstarke und N die Lautheit); 

Fig. 7 eine schematische Darstellung der zeitlichen Maskierung; 

Fig. 8 eine Darstellung der Lautheitsfunktion (sone) in Abhangigkeit des Schallpe- 

gels (phon) eines 1 KHz-Tones; 

Fig. 9 eine Darstellung der Verschmierungsfunktion; 

10 Fig. 10 eine grafische Darstellung des Sprachkoeffizienten als Funktion des 

Sprachanteils im Quellsignal; 

Fig. 1 1 eine grafische Darstellung der Qualitat in der Pausenphase ais Funktion der 

Sprachenergie in der Pausenphase; 

Fig. 1 2 eine grafische Darstellung der Gain-Konstante als Funktion des Energiever- 

1 5 haltnisses; 

Fig. 13 eine grafische Darstellung der Gewichtungskoeffizienten zur Implementie- 

rung der zeitlichen Maskierung in Abhangigkeit von der Frequenzkompo- 
nente. 



Grundsatzlich sind in den Figuren gleiche Teile mit gleichen Bezugszeichen versehen. 
20 Wege zur Ausfuhrung der Erfindung 
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lm folgenden wird ein konkretes Ausfuhrungsbeispiel im einzelnen anhand der Figuren 
eriautert. 

Fig. 1 zeigt das Prinzip der Verarbeitung. Als Quellsignai x(i) wird eine Sprachprobe ver- 
wendet. Es wird durch den Sprachcodierer 1 verarbeitet bzw. iibertragen und in ein Emp- 
fangssignal y(i) (codiertes Sprachsignal) uberfuhrt. Die genannten Signale liegen in digitaler 
Form vor. Die Abtastfrequenz betragt z.B. 8 kHz und die digitaie Quantisierung 16 Bit. Da- 
tenformat ist vorzugsweise PCM (ohne Kompression). 

Quell- und Empfangssignal werden separat einer Vorverarbeitung 2 und einer psycho- 
akustischen Modellierung 3 unterworfen. Es folgt eine Abstandsberechnung 4, welche die 
Ahnlichkeit der Signale beurteilt. Schliesslich wird eine MOS Berechnung 5 durchgefuhrt, 
urn ein mit der menschlichen Bewertung vergleichbares Resultat zu erhalten. 



Fig. 2 verdeutlicht die im folgenden detailliert beschriebenen Ablaufe. Quellsignai und 
Empfangssignal erfahren den selben Verarbeitungsweg. Der Einfachheit halber ist der Pro- 
zess nur einmal gezeichnet worden. Es ist aber klar, dass die beide Signale bis zur Be- 
1 5 stimmung des Abstandsmasses separat behandelt werden. 

Das Quellsignai basiert auf einem Satz, der so gewahlt ist, dass seine Lauthaufigkeitssta- 
tistik der gesprochenen Sprache moglichst gut entspricht. Urn das Kontext-Hdren zu un- 
terbinden, verwendet man sinnleere Silben, sogenannte Logatome. Die Sprachprobe soil 
einen moglichst konstanten Sprachpegel besitzen. Die Lange der Sprachprobe liegt zwi- 
20 schen 3 und 8 Sekunden (typisch 5 Sekunden). 

Signalvorbereitung: In einem ersten Schritt wird das Quellsignai in den Vektor x(i) und das 
Empfangssignal in den Vektor y(i) eingelesen. Die beiden Signale mussen zeit- und pegel- 
massig synchronisiert werden. Dann wird die Gleichstromkomponente entfernt, indem von 
jedem Abtastwert der Mittelwert abgezogen wird: 
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1 N 1 N 

Weiter werden die Signale auf gemeinsame RMS (Root Mean Square)-Pegel normalisiert, 
weil der konstante Verstarkungsfaktor im Signal nicht beriicksichtigt wird: 



*(0 = *(/)• I , ! X0 = i = (2) 



5 Als nachstes kommt die Rahmen-Bildung: Beide Signale werden in Segmente der Lange 32 
ms aufgeteilt (256 Abtastwerte bei 8 kHz). Diese Rahmen sind die Verarbeitungseinheiten 
in alien spateren Verarbeitungsschritten. Die Rahmeniiberlappung betragt vorzugsweise 
50% (128 Abtastwerte). 

Nun folgt die Hamming-Fensterung 6 (vgl. Fig. 2). In einem ersten Verarbeitungsschritt 
10 wird der Rahmen einer zeitlichen Gewichtung unterzogen. Es wird ein sog. Hamming -Fen- 
ster (Fig. 3) generiert, mit welchem die Signaiwerte eines Rahmens multipliziert werden. 

/iamm(A:) = 034-0.46-cos[^^^], 1<£<255 (3) 

Aufgabe der Fensterung ist es, ein zeitlich unbegrenztes Signal in ein zeitlich begrenztes 
Signal zu uberfiihren, indem das zeitlich unbegrenzte Signal mit einer Fensterfunktion mul- 
1 5 tipliziert wird, die ausserhalb eines gewissen Bereiches verschwindet (gleich Null ist). 

x(i) = x(i)*hamm(i) t y(i) = y(i)*hamm(i) , l<i^255 (4) 

Das Quellsignal x(t) in der Zeitdomane wird jetzt mittels diskreter Fourier-Transformation 
(Fig. 2: DFT 7) in die Frequenzdomane uberfuhrt. Fur eine zeitdiskrete Wertefolge x(i) mit 
i=0,1,2,....,N-1, die durch die Fensterung entstanden ist, lautet die komplexe Fourier-Trans- 
20 formierte C(j) fiir das Quellsignal x(i) bei der Periode N: 
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N-1 



10 
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c xO) = Z x (0-exp(-y~.».y) 0<y£^-l (5) 
Dasselbe wird fur das kodierte Signal bzw. Empfangssignal y(f) gemacht: 



c yO) = 2X0 • «P(-/ y) 0 <y <: JV- 1 

n—0 j V 



(6) 



Im nachsten Schritt wird der Betrag des Spektrums berechnet (Fig.2: Betragsbildung 8). 
5 Mit Index x ist immer das Quellsignal bezeichnet und mit y das Empfangssignal: 



Px j = J c M) conjg(c x U)), Py } = Jc y (J) conjg( Cy U)) 



(7) 



Nun wird eine Einteilung in die kritischen Frequenzbander vorgenommen (Fig. 2: Bark- 
Transformation 9). 

Hier wird ein angepasstes Modell von E. Zwicker, Psychoakustik, 1982, eingesetzt. Die 
Basiiiarmembrane im menschlichen Ohr teilt das Frequenzspektrum in kritische Frequenz- 
gruppen ein. Diese Frequenzgruppen spielen eine wichtige Rolle bei der Lautstarkenemp- 
findung. Bei tiefen Frequenzen haben die Frequenzgruppen eine konstante Bandbreite von 
100 Hz, bei Frequenzen oberhalb 500 Hz steigt sie proportional mit der Frequenz (sie be- 
tragt etwa 20% der jeweiligen Mittenfrequenz). Dies entspricht angenahert den Eigenschaf- 
ten des menschlichen Gehors, welches die Signale auch in Frequenzbandern verarbeitet, 
allerdings sind diese Bander variabel, d.h. deren Mittenfrequenz richtet sich nach dem 
jeweiligen Schall-Ereignis. 

Die folgende Tabelle zeigt den Zusammenhang zwischen Tonheit z, Frequenz f, Frequenz- 
gruppenbreite AF, sowie FFT-lndex. Die FFT-lndices entsprechen der FFT-Auflosung von 
20 256. Nur die Bandbreite 1 0CM000 Hz ist interessant fur die weitere Berechnung. 
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Z [Bark] 


F(low) [Hz] 


AF [Hz] 


FFT Index 


0 


0 


100 




1 


100 


100 


3 


2 


200 


100 


6 


3 


300 


100 


9 


4 


400 


100 


13 


5 


510 


110 


16 


6 


630 


120 


20 


7 


770 


140 


25 


8 


920 


150 


29 


9 


1080 


160 


35 


10 


1270 


190 . 


41 


11 


1480 


210 


47 


12 


1720 


240 


55 


13 


2000 


280 


65 | 


14 


2320 


320 


74 


15 


2700 


380 


86 


16 


3150 


450 


101 | 


17 


3700 


550 


118 


18 


4400 


700 




19 


5300 


900 




20 


6400 


1100 




21 


7700 


1300 




22 


9500 


1800 




23 


12000 


2500 




24 


15500 


3500 





Die hier angewandten Fenster stellen eine Vereinfachung dar. Alle Frequenzgruppen haben 
die Breite AZ(z) von 1 Bark. Die Tonheitsskala z in Bark wird gemass folgender Formel be- 
rechnet: 



Z = 13arctan(o.76- /) + 3.5arctan 



(8) 



wobei f in [kHz] und Z in [Bark]. 
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Eine Tonheitsdifferenz von einem Bark entspricht ungefahr einem Abschnitt von 1.3 Milli- 
metern auf der Basiliarmembran (150 Haarzellen). Die eigentliche Frequenz-Tonheit-Kon- 
verberung kann einfach nach der folgenden Formel gemacht werden: 

5 wobei IfU] der Index vom ersten und l,DJ vom letzten Sample auf der Hertz-Skala fur Band j 
ist. Afj bezeichnet die Bandbreite im Band j in Hertz. q(f) ist die Gewichtungsfunktion (Fig. 
5). Da die Diskrete Fourier-Transformation nur Werte des Spektrums an diskreten Stellen 
(Frequenzen) liefert, liegen die Bandgrenzen jeweils auf einer solchen Frequenz. Die Werte 
an den Bandgrenzen werden in jedem der benachbarten Fenster nur je halb gewichtet. Die 
1 0 Bandgrenzen liegen auf N*8000/256 Hz. 

N = 3, 6, 9, 13, 16, 20, 25, 29, 35, 41, 47, 55, 65, 74, 86, 101, 1 18 

Fur die Telefonie-Bandbreite 0.3 - 3.4 kHz werden 1 7 Werte auf der Tonheitsskala benutzt, 
die dann der Erregung entsprechen. Von den resultierenden 128 FFT-Werten werden die 
ersten 2, welche dem Frequenzbereich 0 Hz bis 94 Hz, und die letzten 10, welche dem 
1 5 Frequenzbereich 3700 Hz bis 4000 Hz entsprechen, weggelassen. 

Beide Signale werden jetzt mit einem Filter gefiltert, dessen Frequenzgang der Empfangs- 
kurve des entsprechenden Telefon-Sets entspricht (Fig. 2: Telef onband-Filterung 1 0): 

tKU\ = m/l-rtui. pjy.m = Fiityi • Py]{j] (io) 

wo FilU die Frequenzantwort im Band j des Frequenzganges des Telefongerates ist (defi- 
20 niert gemass ITU-T Empfehlung Annex D/P.830). 

In Fig. 5 sind die Werte (logarithmisch) eines solchen Filters grafisch dargestellt. 
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Optional konnen noch die Phon-Kurven berechnet werden (Fig. 2: Phon-Kurven-Berech- 
nung 1 1). Dazu folgendes: 

Als Lautstarke eines beliebigen Schalles ist derjenige Pege! eines 1 kHz-Tones bezeichnet, 
der bei frontalem Einfall auf die Versuchsperson in einer ebenen Welle die gleiche Laut- 
5 starkenempfindung bewirkt wie der zu messende Schall (vgl. E. Zwicker, Psychoakustik, 
1982). So spricht man uber die Kurven gleicher Lautstarke fur verschiedene Frequenzen. 
Diese Kurven sind in Fig. 6 dargestellt. 

In Fig. 6 sieht man z. B., dass ein 100 Hz-Ton bei einer Pegellautstarke von 3 phon einen 
Schallpegel von 25 dB besitzt. Der gleiche Ton besitzt jedoch fur einen Lautstarkepegel 
10 von 40 phon einen Schallpegel von 50 dB. Man sieht auch, dass z. B. fur einen 100 Hz-Ton 
der Schallpegel 30 dB starker sein muss als fiir einen 4 kHz-Ton, damit beide eine gleiche 
Lautheit im Ohr erzeugen konnen. Eine Annaherung im erfindungsgemassen Modell wird 
erreicht, indem die Signale Px und Py mit einer komplementaren Funktion multipliziert 
werden. 

15 Da das menschliche Gehor beim gleichzeitigen Auftreten mehrerer Spektral-Anteiie in 
einem Band uberreagiert d.h. die Gesamtlautstarke als grosser als die lineare Summe der 
elnzelnen Lautstarken empfindet, werden die Einzel-Spektralanteile komprimiert. Die kom-r 
primierte spezifische Lautheit hat die Einheit 1 Sone. Zur Durchfiihrung der Phon-Sone- 
Transformation 12 (vgl. Fig. 2) wird im vorliegenden Fall die Erregung in Bark mit einem 

20 Exponent a = 0.3 komprimiert: 



Ein wichtiger Aspekt des bevorzugten Ausfuhrungsbeispiels ist die Modellierung der zeitli- 
chen Verdeckung. 

Das menschliche Ohr ist unfahig, zwei kurze Testschalle, die kurz nacheinander ankom- 
25 men, zu unterscheiden. Die zeitabhangigen Vorgange zeigt Fig. 7. Ein Maskierer von 200 



(11) 
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ms Dauer verdeckt einen kurzen Tonimpuls. Der Zeitpunkt, wo der Maskierer beginnt ist 
m,t 0 bezeichnet. Links ist die Zeit negativ. Die zweite Zeitskala beginnt dort, wo der Mas- 
k.erer endet. Es sind drei Zeitbereiche zu sehen. Vorverdeckung findet statt, bevor der 
Maskierer eingeschaltet wird. Unmittelbar danach ist die Simu.tanverdeckung und nach 
dem Ende des Maskierers ist die Nachverdeckungsphase. FOr die Nachverdeckung gibt es 
erne logische Erklarung (Ausklingen). Die Vorverdeckung findet schon vor Einschalten des 
Maskierers statt. Die Horempfindungen treten nicht sofort auf. Es wird eine Verarbeitungs- 
ze.t benotigt, um die Empfindungzu erzeugen. Einem lauten Schall wird eine schnelle Ver- 
arbeitung zuerkannt und einem leisen Schall an der Horschwelle eine langere Verarbei- 
tungszeit. Die Vorverdeckung dauert etwa 20 ms und die Nachverdeckung 100 ms. Daher 
ist die Nachverdeckung der dominante Effekt. Die Nachverdeckung hangt von der Mas- 
kiererdauer und dem Spektrum des verdeckenden Schalles ab. 

Eine grobe Annaherung der zeitlichen Verdeckung ist bereits durch die Rahmenuberlap- 
pung in der Signal-Vorverarbeitung erreicht. Bei der Rahmenlange von 32 ms (256 Ab- 
tastwerte und 8 kHz Abtastfrequenz) ist die Oberlappungszeit 16 ms (50%). Dies reicht fur 
mittlere und hohe Frequenzen. Fur tiefe Frequenzen ist diese Verdeckung viel langer (> 
120 ms). Dieses wird nun als das Addieren des abgeschwachten Spektrums des vorange- 
henden Rahmens implementiert (Fig. 2: Zeitliche Verdeckung 15). Die Abschwachung ist 
dabei in jedem Frequenzband unterschiedlich: 

20 PxrU] AKM +p *um*coefrui) (Miiju^ a)) 

1+coeffU) tiy> U] ~ 1 + coeffU) (12) 

wo coeffO) die Gewichtungs-Koeffizienten sind, die nach folgender Formel berechnet wer- 
den: 



15 



coe ff(J) = exp 



FrameLength 
(2Fc) 



((2 • NrOfBarks + 1) - 2 • (J - 1)) . tj 
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\=\,2,2,...,NrOfBarks 



(13) 



wo FrameLength die Rahmenlange in Abtastwerten ist z.B. 256, NrOfBarks ist die Anzahl 
Bark-Werte innerhalb eines Rahmens (hier z.B. 17). Fc ist die Abtastfrequenz und *n 83 
5 0.001. 

Die Gewichtungskoeffizienten zur Implementierung der zeitlichen Maskierung in Abhangig- 
keit von der Frequenzkomponente sind beispielhaft in Fig. 1 3 dargestellt. Es ist deutlich 
erkennbar, dass die Gewichtungskoeffizienten mit zunehmendem Bark-Index (d.h. mit stei- 
gender Frequenz) abnehmen. 

10 Zeitliche Verdeckung wird hier nur als Nachverdeckung realisiert. Die Vorverdeckung ist in 
diesem Kontext vemachlassigbar. 

In einer weiteren Verarbeitungsphase werden die Spektren der Signaie "verschmiert" 
(Fig. 2: Frequenzverschmierung 13). Dies vor dem Hintergrund, dass das menschliche Ohr 
unfahig ist, zwei Frequenzkomponenten, die nebeneinander stehen, deutlich zu unter- 
15 scheiden. Der Grad der Frequenzverschmierung hangt von den betroffenen Frequenzen, 
deren Amplituden und anderen Faktoren ab. 

Die Empfindungsgrosse des Ohres ist die Lautheit. Sie sagt wievielmal ein zu messender 
Schall tauter oder leiser als ein Standardschall ist. Die so gefundene Empfindungsgrosse 
wird als Verhaltnislautheit bezeichnet. Als Standardschall hat sich der Schallpegel eines 
20 1 kHz-Tones bewahrt. Dem 1 kHz-Ton mit einem Pegel von 40 dB wurde die Lautheit 1 
sone zugeordnet In E. Zwicker, Psychoakustik, 1982, wird folgende Definition der 
Lautheitsfunktion beschrieben: 



W-40 

Lautheit =2 10 [dB] 
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Fig. 8 zeigt eine Lautheitsfunktion (sone) fur den 1 kHz-Ton als Funktion des Schallpegels 
(phon). 

Im Rahmen des vorliegenden Ausfiihrungsbeispiels wird diese Lautheitsfunktion wie folgt 
angenahert: 

s px;u\=(px;u])' , p y ;[j)=(p y ;uf (14) 

wo e=4/3. 

Das Spektrum wird an dieser Stelle expandiert (Fig. 2: Lautheitsfunktionskonversion 14). 

Das nun voriiegende Spektrum wird mit einer diskreten Foige von Faktoren gefaltet (Con- 
volution). Das Resuitat entspricht einem Verschmieren des Spektrums fiber die Frequenz- 
1 0 achse. Convolution von zwei Sequenzen x und y entspricht der relativ komplizierten Fal- 
tung der Sequenzen im Zeitbereich oder dem Multiplizieren deren Fourier-Transformierten. 
Im Zeitbereich lautet die Formel: 



c = conv(x,y), c (k) = 2xO)-X* + l-/) , (1S) 

wo m die Lange der Sequenz x und n die Lange der Sequenz y ist. Das Resultat c hat die 
15 Lange k=m+n-1. j = max(1, k+1-n) : min(k,m). 

Im Frequenzbereich: 



convey) = FFT 1 (FFT(x) * FFT(y)) . (16) 

Anstelie von x kommt im vorliegenden Beispiel das Signal Px'und Py" der Lange 17 
(m=17) und anstelie von ykommt die Verschmierungsfunktion A der Lange ? (n=9). Somit 
20 hat das Resultat die Lange 17+9-1=25 (k=25). 
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Ex, = co«v(Px," , A(/)) , Ey, = conv(Py~ , A(/)) (17) 

A(') ist die Verschmierungsfunktion, deren Form in der Fig. 9 gezeigt wird. Sie ist asymme- 
trisch. Die linke Flanke steigt auf von einer Lautheit von -30 bei der Frequenzkomponente 
1 zu einer Lautheit von 0 bei der Frequenzkomponente 4. Danach fallt sie wieder in einer 
5 geraden Linie ab auf eine Lautheit von -30 bei der Frequenzkomponente 9. Die Verschmie- 
rungsfunktion ist also eine asymmetrische Dreiecksfunktion. 

Die psychoakustische Modellierung 3 (vgl. Fig. 1) ist damit abgeschlossen. Es folgt die 
Berechnung der Qualitat. 

Der Abstand zwischen den gewichteten Spektren des Quellsignals und des Empfangs- 
1 0 signals wird wie folgt berechnet: 

wo Q v der Abstand wahrend der Sprachphase (aktive Signalphase) ist und der Ab- 
stand in der Pausenphase (inaktive Signalphase). tj w ist der Sprachkoeffizient und tj^ ist 
der Pausenkoeffizient. 

1 5 Zuerst wird die Signalanalyse vom Quellsignal durchgefuhrt mit dem Ziel, Signalsequenzen 
zu finden, wo die Sprache aktiv ist. So wird ein sogenanntes Energieprofil En pmflU gebildet 

nach: 



\,...if(x(i)> SPEECH _THR) 
0,...i/(x(0 < SPEECH _ THR) 



Mit SPEECH_THR ist der Schwellenwert definiert, unter welchem die Sprache inaktiv ist. 
20 Dieser liegt meistens bei +10 db zur maximalen Dynamik des AD-Konvertors. Bei 16 Bit 
Auflosung ist SPEECH_THR = - 96.3 + 10 - - 86.3 db. In PACE ist SPEECH_THR = - 80 db. 
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Die Qualitat ist indirekt proportional der Ahnlichkeit Q mT von Quell- und Empfangssignal. 
Q mT = 1 bedeutet, dass Quell- und Empfangssignal genau gleich sind. Fur Q mT = 0 sind 
diese zwei Signale gar nicht ahnlich. Der Sprachkbeffizient rj sp wird nach folgender Formel 
berechnet: 



5 ^ = -V'{*hr) + V> OZP^z 



(19) 

wo n-1.01 und Psp Sprachanteil ist. 

Wie die Fig. 10 zeigt, ist der Einfluss der Sprachsequenz grosser (Sprachkoeffizient 
grosser) wenn der Sprachanteil grosser ist. So bei u=1.01 und Psp=0.5 (50%) ist dieser 
Koeffizient 7jp =0.91. So ist der Einfluss der Sprachsequenz im Signal 91% und der Pau- 
10 sensequenz nur 9% (100-91). Bei u=1.07 ist der Einfluss der Sprachsequenz kleiner (80%). 

Danach wird der Pausenkoeffizient berechnet nach: 

Vpa - 1 - 7ap (20) 

Die Qualitat in der Pausenphase wird nicht in gleicher Weise berechnet wie die Qualitat in 
der Sprachphase. 

1 5 Q„ ist die Funktion der Signalenergie in der Pausenphase. Wenn diese Energie zunimmt, 
wird der Wert kleiner (was der Verschlechterung der Qualitat entspricht): 



loglO(£ AI ) 
| K>B10(£ TO ) 

ipa — J +k„+l + m (21) 
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A:„ ist eine vordefinierte Konstante und hat hier den Wert 0.01. ist die RMS-Signal- 
energie in der Pausenphase fiir das Empfangssignal. Erst wenn diese Energie grosser als 
die RMS-Signalenergie in der Pausenphase im Quellsignal ist, hat es einen Einfluss auf den 

e^Wert. Also E pa =vcaa{Eref pB ,E pa ). Der kleinste E„ ist 2. E^ ist die maximale 
5 RMS-Signalenergie bei gegebener digitaler Auflosung (fiir 16-Bit Auflosung ist 
£^=32768). Der Wert m in der Formel (21) ist der Korrekturfaktor fur £^=2, so dass 

dann =1 ist. Dieser Korrekturfaktor wird so berechnet: 

logKKE.a,) 

Be\E =32768 E ■ =2 und k =0.01 ist der Wert fur m=0.003602. Im wesentlichen 
10 kann die Basis kn*(kn+1/kn) als geeignet gewahlte Konstante A verstanden werden. 

In Fig. 1 1 ist der Zusammenhang zwischen der RMS-Energie des Signals in der Pausen- 
phase und dargestellt. 

Die Qualitat in der Sprachphase wird durch den "Abstand" zwischen den Spektren von 
Quell- und Empfangssignal bestimmt. 

1 5 Zunachst werden vier Pegelfenster definiert. Fenster Nr. 1 reicht von -96.3 dB bis -70 dB, 
Fenster Nr. 2 von -70 dB bis -46 dB, Fenster Nr. 3 von -46 dB bis -26 dB und Fenster Nr. 
4 von -26 dB bis 0 dB. Signale, deren Pegel im ersten Fenster liegen, werden als Pause 
interpretiert und werden bei der Berechnung von g*nicht beriicksichtigt. Mit der 
Unterteilung in vier Pegelfenster wird eine Multiaufiosung erreicht. Ahnliche Vorgange 

20 geschehen im menschlichen Ohr. So kann der Einfluss der Storung im Signal abhangig von 
deren Energie gesteuert werden. Das Fenster vier, welches der hochsten Energie 
entspricht, wird maximal gewichtet. 
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Der Abstand zwischen dem Spektrum des Quellsignals und des Empfangssigna.s in der 
Sprachphase fur den Sprachrahmen k und das Pegelfenster i Qsp(i , k) wird 
folgendermassen berechnet: 



15 



(23) 



5 wo Ex(k) das Spektrum des Quellsignals und Ey(k) das Spektrum des Empfangssignals 
im Rahmen A- ist. Mit n ist die spektrale Auflosung eines Rahmens bezeichnet. Das n ent- 
spncht der Anzahl Bark-Werte in einem Zeitrahmen ( 2 .B. 17). Das mitt. ere Spektrum im 
Rahmen k ist mit E(k) bezeichnet. G IJc ist die rahmen- und fensterabhangige Gain- 
Konstante, deren Wert vom Energieverhaltnis ^ abhangigist. 

1 0 Eine grafische Darstellung des G i k -Wertes a.s Funktion des Energieverhaltnisses ist in der 
Fig. 12dargestellt. 

Wenn dieser Verstarkungsfaktor g.eich 1 ist (Energie im Empfangssignal gleich der Energie 
im Quellsignal) ist auch G IJt = 1 . 



Wenn die Energie im Empfangssignal gleich der Energie im Queilsignal ist, ist G iJc gleich 1 . 
Dies hat keinen Einfluss auf das Q sp . Al.e anderen Werte fuhren zu kleineren G jc bzw. 
Qs,, was einem grosseren Abstand zum Quellsignal entspricht (Qualitat des 
Empfangssigna«s k.einer). Wenn die Energie des Empfangssignals grosser a.s die des 
Quellsignals ist: logl((g) > 1, verhalt sich die Gain-Konstante nach der Gleichung: 
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HI 



MS))" 



Wenn dieses Energieverhaitnis log 1 



<3 



< 1 ist, dann gilt: 



°- i —>{ k * i {%f.- 

Die Werte fur e m und fi w fur die einzelnen Pegelfenster konnen aus der folgenden 
5 Tabelle entnommen werden. 



Fenster - Nr. i 


£ m 


£ LO 


9 


Ysd 


■•■ > 2 


0.05 


0.025 


0.15 


0.1 


3 


0.07 


0.035 


0.25 


0.3 


4 


0.09 


0.045 


0.6 


0.6 



Die beschriebene Gain-Konstante bewirkt, dass zusatziiche Inhalte im Empfangssignal den 
Abstand starker vergrossern als fehlende Inhalte. 

Aus der Formel (23) ist ersichtlich, dass der Zahler der Kovarianz-Funktion entspricht und 
10 der Nenner dem Produkt von zwei Standardabweichungen. Also fur den Ar-ten Rahmen und 
das Pegelfenster i ist der Abstand gleich: 



Cov k {Px ,Py) 
cr x {k)-a y {k) 



Die ebenfalls aus obiger Tabelle ersichtlichen Werte 9 und Ysd fiir J edes Pegelfenster 
werden benotigt, urn die einzelnen Q^iUk) in ein einziges Abstandsmass Q ip zu 
1 5 transformieren. 
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Abhangig vom Inhalt des Signals erhalt man drei Qsp{i) Vektoren, deren Langen 
unterschiedlich sein konnen. In einer ersten Annaherung wird der Mittelwert fur das 
jeweilige Pegelfenster i berechnet: 

5 N 1st die Lange des Q v (/) Vektors taw. die Anzehl der Sprachrahmen fur das jeweilige 
Sprachfenster i. 

Danach wird die Standard Abweichung SD, des Q v (i) Vektors berechnet: 



'V # 



(26) 



SD beschreibt die Verteilung der Storung im kodierten Signal. Fiir ein burstformiges 
1 0 Rauschen, z.B. Impulsrauschen ist der SD-Wert relativ gross, fur gleichverteiltes Rauschen 
dagegen klein. Auch das menschliche Ohr nimmt erne impuisformige Beeintrachtigung 
starker war. Ein typischer Fall sind die analogen Sprachiibertragungsnetze wie 2.B. AMPS. 

Damit wird der Effekt der Giite der Signalverteilung folgendermassen implementiert: 
&d(f)=l + SD rrsD (i), (27) 
1 5 wobei definiert wird, dass 

£«*(/)= 1, fur Ksd(i)>l und 



Ksd(j)=0,fiirKsd(i)<0. 
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und schliesslich 

Qsd i =Ksd(i)*Q l , (28) 

Die Berechnung der Qualitat der Sprachphase Q v erfolgt nun als gewichtete Summe der 
einzelnen Fensterqualitaten gemass 

Die Gewichtungsfaktoren U i werden bestimmt mit 

u.-i^p,. < 30 > 

wobei 77^ der Sprachkoeffizient gemass Formel 19 ist und p t dem gewichteten 
Zugehorigkeitsgrad des Signals zum Fenster i entspricht und berechnet wird mit 



O 

10 Pi =^- L - mit 

/=2 



iST f ist die Anzahl der Sprachrahmen im Fenster i, ^^ist die gesamte Anzahl der 
Sprachrahmen und die Summe aller 0 ist immer gleich 1 : 

4 

1=2 
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D.h, Je grosser der Quotient £- oder die 9, sind, desto mehr Bedeutung hat die Storung 

sp ° 

im jeweiligen Sprachrahmen. 

Selbstverstandlich konnen fur eine signalpegelunabhangige Gainkonstante die Werte fur 
£ w> £lo>0 und Ysd auch fur jedes Fenster gieich gewahlt werden. 

In Fig. 2 bt der entsprechende Verarbeitungsabschnitt durch die Abstandsmassberech- 
nung 16 dargestellt. Die Qualitatsberechnung 17 ermittelt den Wert Qtot (Formel 18). 

Zu guter Let* kommt die MOS-Berechnung 5. Diese Konvertierung ist notig, urn Q mT auf 
der richtigen Qualitatsskala darstellen zu konnen. Die Qualitatsskala mit MOS-Einheiten ist 
in ITU T P.800 "Method for subjective determination of transmission quality", 08/96, defi- 
niert. Es wird eine statistisch relevante Zahl von Messungen durchgefuhrt. Dann werden 
alle Messwerte als einzeme Punkte in einem Diagramm dargestellt. Dann wird eine Trend- 
kurve in der Form eines Polynoms zweiter Ordnung durch alle Punkte gezeichnet: 



MOS Q =a-(MOS PACE f+b-MOS PjtCE +c 



(31) 



Dieser MOSo Wert (MOS Objective) entspricht jetzt dem vorgegebenen MOS-Wert. Im 
1 5 besten Fall sind beide Werte gleich. 

Das beschriebene Verfahren kann mit dedizierter Hardware und/oder mit Software ver- 
wirklicht werden. Die Formeln lassen sich ohne Schwierigkeiten programmieren. Die Ver- 
arbe.tung des Quellsignals wird im voraus durchgefuhrt und es werden nur die Ergebnisse 
der Vorverarbeitung und psychc-akustischen Modellierung abgespeichert. Das Empfangs- 
^0 s.gnal kann z.B. on-line verarbeitet werden. Zur Durchfuhrung der Abstandsberechnung der 
S Ig nalspektren wird auf die entsprechenden abgespeicherten Werte des Quellsignals zu- 
ruckgegriffen. 
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Das erfindungsgemasse Verfahren wurde mit verschiedenen Sprachproben unter verschie- 
denen Bedingungen getestet Die Lange der Probe variierte zwischen 4 und 16 Sekunden. 

Getestet wurden folgende Sprachubertragungen im realen Netz: 

• normale ISDN-Verbindung. 

5 • GSM-FR <-> ISDN und GSM-FR alleine. 

• verschiedene Ubertragungen uber DCME -Einrichtungen mit ADPCM (G.726) bzw. 
LD-CELP (G.728) Codecs. 

Alle Verbindungen wurden mit verschiedenen Sprachpegeln angesteuert. 
In der Simulation: 
1 0 *v CDMA Codec (IS-95) mit verschiedenen Bitfehlerraten. 

• TDM A Codec (IS-54 und IS-641) mit eingeschalteten Echo-Canceller. 

• Additive Hintergrundgerausche und verschiedene Frequenzgange. 

Jeder Test besteht aus einer Reihe von bewerteten Sprachproben und dem zugehorigen 
auditiven Urteil (MOS). Die erzielte Korrelation zwischen dem erfindungsgemassen Verfah- 
1 5 ren und den auditiven Werten war sehr hoch. 

Zusammenfassend ist festzustellen, dass durch 

• die Modellierung der zeitlichen Verdeckung, 

• die Modellierung der Frequenz Verdeckung, 
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• das beschriebene Modell der Abstandsberechnung, 

• die Modellierung des Abstands in der Pausenphase und 

• die Modellierung den Einfluss des Energieverhaltnisses auf die Qualitat 

ein vielseitig anwendbares und sehr gut mit der subjektiven Wahrnehmung korrelierendes 
5 Beurteilungssystem geschaffen worden ist. 
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Patentanspriiche 

1. Verfahren zur Durchfuhrung einer maschinengestiitzten Beurteilung der Ubertra- 
gungsqualitat von Audiosignalen, insbesondere von Sprachsignalen, wobei in einen 
Frequenzbereich Spektren eines zu ubertragenden Quellsignals und eines iibertrage- 
nen Empfangssignals bestimmt werden, dadurch gekennzeichnet, dass zur Beurtei- 
lung der Ubertragungsqualitat ein spektraler Ahnlichkeitswert dadurch bestimmt wird, 
dass die Kovarianz der Spektren des Quellsignals und des Empfangssignals durch das 
Produkt der Standardabweichung der beiden Spektren dividiert wird. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der spektrale Ahnlich- 
keitswert mit einem Gain-Faktor gewichtet wird, welcher in Abhangigkeit von einem 
Verhaltnis der Energien von Empfangs- und Quellsignal den Ahnlichkeitswert starker 
reduziert, wenn die Energie des Empfangssignals grosser ist als die Energie im Quell- 
signal als wenn die Energie des Empfangssignals kleiner ist als die Energie im Quell- 
signal. 

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass der Gain-Faktor den 
Ahnlichkeitswert in Abhangigkeit der Energie des Empfangssignals starker reduziert, 
je hoher die Energie des Empfangssignals ist. 

4. Verfahren nach einem der Anspruche 1 bis 3, dadurch gekennzeichnet, dass aus 
Quell- und Empfangssignal inaktive Phasen extrahiert werden und dass der spektrale 
Ahnlichkeitswert nur fur die verbleibenden aktiven Phasen bestimmt wird. 

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass fur die inaktiven Phasen 
ein Qualitatswert bestimmt wird, welcher in Abhangigkeit von einer Energie Ep in den 
inaktiven Phasen im wesentlichen folgende Charakteristik aufweist: 
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6. Verfahren nach den Anspriichen 4 und 5, dadurch gekennzeichnet, dass die Ubertra- 
gungsqualitat durch eine gewichtete Linearkombination aus dem Ahnlichkeitswert der 
akt.ven Phase und dem Qualitatswert der inaktiven Phase berechnet wird. 

7. Verfahren nach einem der Anspruche 1 bis 6, dadurch gekennzeichnet, dass Quell- 
und Empfangssignal vor deren Transformation in den Frequenzbereich jeweils so in 
ze.tliche Rahmen aufgeteilt werden, dass die aufeinanderfolgenden Rahmen zu einem 
wesentlichen Teil von bis zu 50% uberlappen. 

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass zur Durchfuhrung einer 
zeitlichen Maskierung zum Spektrum eines Rahmens jeweils das abgeschwachte 
Spektrum des vorangegangenen Rahmens addiert wird. 

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass vor der Durchfuhrung der 
zeitlichen Maskierung die Komponenten der Spektren komprimiert werden durch Po- 
tenzierung mit einem Wert a<1 . 

10. Verfahren nach einem der Anspruche 1 bis 9, dadurch gekennzeichnet, dass die Spek- 
tren von Quell- und Empfangssignal vor der Bestimmung des Ahnlichkeitswertes je mit 
einer frequenzmassig asymmetrischen Verschmierungsfunktion gefaltet werden. 

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die Komponenten der 
Spektren vor der Faltung expandiert werden durch Potenzierung mit einem Wert e>1 . 
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Fig. 3 
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